4 research outputs found

    Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses

    Full text link
    Automatically evaluating the quality of dialogue responses for unstructured domains is a challenging problem. Unfortunately, existing automatic evaluation metrics are biased and correlate very poorly with human judgements of response quality. Yet having an accurate automatic evaluation procedure is crucial for dialogue research, as it allows rapid prototyping and testing of new models with fewer expensive human evaluations. In response to this challenge, we formulate automatic dialogue evaluation as a learning problem. We present an evaluation model (ADEM) that learns to predict human-like scores to input responses, using a new dataset of human response scores. We show that the ADEM model's predictions correlate significantly, and at a level much higher than word-overlap metrics such as BLEU, with human judgements at both the utterance and system-level. We also show that ADEM can generalize to evaluating dialogue models unseen during training, an important step for automatic dialogue evaluation.Comment: ACL 201

    Ethical Challenges in Data-Driven Dialogue Systems

    Full text link
    The use of dialogue systems as a medium for human-machine interaction is an increasingly prevalent paradigm. A growing number of dialogue systems use conversation strategies that are learned from large datasets. There are well documented instances where interactions with these system have resulted in biased or even offensive conversations due to the data-driven training process. Here, we highlight potential ethical issues that arise in dialogue systems research, including: implicit biases in data-driven systems, the rise of adversarial examples, potential sources of privacy violations, safety concerns, special considerations for reinforcement learning systems, and reproducibility concerns. We also suggest areas stemming from these issues that deserve further investigation. Through this initial survey, we hope to spur research leading to robust, safe, and ethically sound dialogue systems.Comment: In Submission to the AAAI/ACM conference on Artificial Intelligence, Ethics, and Societ

    The reasoning and learning Lab Chatbot: a solution to the conversational intelligence challenge

    No full text
    Over the years, the richness of human computer interaction has greatly evolved. As a result, it is now possible to command a computer, phone, or watch using natural language. Recently, the idea of having a text-based conversation with a machine became more feasible. This is in particular due to modern developments in Deep Learning, a quickly growing area of research in the field of Artificial Intelligence that has achieved impressive results in various applications such as conversational intelligence.Current dialog systems are able to understand our queries and do simple tasks such as listing the news, obtaining the weather or playing music. A significant amount of efforts have been made to train such systems. A logical next step is to be able to have a relatively long and entertaining conversation with chatbots in order to solve more complex tasks. Competitions like the Conversational Intelligence (ConvAI) challenge are being organized to push the research development towards that goal.This thesis undertakes an analysis of modern dialog systems that use deep learning tools. More precisely, we present in details the Reasoning and Learning Lab Chatbot (RLLChatBot) that participated in the ConvAI challenge. We analyze different text generation models and the important role of a ranking system in order to regulate the conversation flow. The main contribution of this work is that we provide a thorough description of how a dialog system can be built and trained from mostly public-domain datasets using Deep Learning tools. Moreover, we present an additional dataset we collected, allowing to improve our ranking system that evaluates which candidate response should be returned to the user at each time step in the conversation. We leave as future work the goal of unifying the entire pipeline we present, as of now, each model is trained independently.Au fil des ans, la richesse de l'interaction homme-machine a beaucoup évolué. Par conséquent, il est maintenant possible de commander un ordinateur, un téléphone ou une montre en utilisant le langage naturel. Récemment, l'idée d'avoir une conversation avec une machine est devenue réalisable. Ceci est dû en particulier aux développements modernes d'apprentissage profond, une dicipline de recherche en croissance rapide dans le domaine de l'intelligence artificielle qui a obtenu des résultats impressionnants dans diverses applications telles que l'intelligence conversationnelle.Les systèmes de dialogue actuels sont capables de comprendre nos requêtes et de faire des tâches simples telles que lister les nouvelles, obtenir la météo ou jouer de la musique. Des efforts importants ont été déployés pour former de tels systèmes. Une prochaine étape logique est de pouvoir avoir une conversation relativement longue et divertissante avec les chatbots afin de résoudre des tâches plus complexes. Des compétitions comme le Conversational Intelligence (ConvAI) challenge sont organisées pour pousser le développement de la recherche vers cet objectif.Cette thèse entreprend une analyse des systèmes de dialogue qui utilisent l'apprentissage profond. Plus précisément, nous présentons le Reasoning and Learning Lab Chatbot (RLLChatBot) qui a participé au défi ConvAI. Nous analysons différents modèles de génération de texte et le rôle important d'un système de classement afin de réguler la conversation. La principale contribution est un système de dialogue entrainé à partir d'ensembles de données publiques en utilisant des outils d'apprentissage profond. De plus, nous présentons un nouvel ensemble de données permettant d'améliorer notre système de classement qui évalue quelle réponse doit être retournée à l'utilisateur. Nous laissons comme futur travail l'objectif d'unifier l'ensemble des modèles que nous présentons, pour l'instant, chaque modèle est entrainé indépendamment

    Natural Language Reasoning with Transformer Language Models

    No full text
    RÉSUMÉ: En raison de la popularité croissante des modèles de langage à base de Transformers (TLMs), il est de plus en plus nécessaire de mieux comprendre leurs forces et leurs limites s’ils doivent être utilisés pour aider les humains à résoudre des tâches complexes avec des implications réelles. Cette thèse se concentre particulièrement sur leurs capacités de raisonnement à plusieurs étapes, car il s’agit à la fois d’une faiblesse des modèles de langage et d’une direction de recherche potentiellement impactante. Tout d’abord, la généralisation compositionnelle des TLMs est évaluée sur une tâche de raisonnement logique en langage naturelle. Des modèles de Transformers décodeurs sont entraînés à répondre à des questions de prédiction de lien entre des personnes en raisonnant sur leurs relations intermédiaires. En particulier, pour mieux comprendre comment les TLMs raisonnent, les modèles sont entraînés à générer différents types d’explications en langage naturel (preuves) avant de générer leur réponse finale. L’exactitude des réponses et des preuves sont évaluées sur des problèmes nécessitant un nombre spécifique d’étapes de raisonnement qui ne sont pas vues pendant l’entraînement. Cette première contribution confirme que les TLMs souffrent de problèmes de généralisation lorsqu’ils sont testés sur des problèmes plus longs que ceux pour lesquels ils ont été entraînés. De plus, elle révèle que les TLMs généralisent mieux lorsqu’ils sont entraînés sur des preuves exhaustives et longues que sur des preuves courtes. Les résultats montrent également que les TLMs généralisent mieux lorsqu’ils sont entraînés à générer des chaines de preuves inverse (“backward-chaining”) plutôt que des chaînes directes (“forward-chaining”). Cependant, on observe également que les modèles entraînés à prédire directement la réponse finale sans générer d’explication logique généralisent mieux aux problèmes plus complexes. Cela suggère que les TLMs ont des stratégies de raisonnement interne difficiles à interpréter, et que bénéficier d’énoncés de preuves logiques naturelles nécessite des représentations internes plus complexes. Des expériences additionelles ont d’ailleurs montré que les modèles pré-entraînés ont de meilleures capacités de raisonnement bien qu’ils n’aient pas été explicitement entraînés à résoudre de telles tâches. Cette première contribution est publiée dans les “Advances in Neural Information Processing Systems (NeurIPS)” 2020. ABSTRACT: Due to the growing popularity of Transformer Language Models (TLMs), there is an increasing need to better understand their strengths and limitations if they are to be widely used to help humans solve complex tasks with real-world implications. This thesis is particularly centered around their multi-step reasoning capabilities as it is both a weakness of language models and a potentially impactful research direction. First, the compositional generalization of TLMs is evaluated on a logical reasoning task in natural language. Transformer decoder models are trained to answer link-prediction questions by reasoning over relationships between entities. In particular, to better understand how TLMs reason, models are trained to generate various types of natural language explanations (proofs) before generating their final answer. Both the models’ answer accuracy and proof accuracy are evaluated on problems requiring specific numbers of reasoning steps that are not seen during training. This first contribution confirms that TLMs suffer from lengthgeneralization issues when tested on longer-than-trained problems. Additionally, it reveals that TLMs generalize better when trained on longer, exhaustive proofs than with shorter ones. Results also show that TLMs generalize better when trained to generate backward-chaining rather than forward-chaining proofs. However, it is also observed that models trained to predict the answer directly without generating a logical explanation generalize better to more complex problems. This suggests that TLMs have internal reasoning strategies that are hard to interpret and that benefiting from naturally stated logical proof statements requires more complex internal representations. Additional experiments showed for instance that pre-trained models have better reasoning capacities although not explicitly trained to solve such tasks. This first contribution is published as a conference paper in the Advances in Neural Information Processing Systems (NeurIPS) 2020
    corecore